数值变量卡方分箱 |
您所在的位置:网站首页 › python 等距分箱 › 数值变量卡方分箱 |
小编近期接的项目中很多要求要用R来做(小编可是Python高手!),所以基本上将Python代码用R重写(翻译)了一遍。小编差不多三年没正儿八经地用R了,但R是小编最喜欢也是最早使用的统计工具。关于工具:Python、R和SAS,小编都能用一点点(生活所迫!),所以有关工具使用、建模、分析的,欢迎交流;有项目合作的,也欢迎交流! 卡方分箱的概念,请参考数值变量-卡方分箱。当然可以将其中的分箱标准-卡方改写成基尼方差、熵方差等。 算法 这里把具体的实现算法再重述一遍: (1)将数值变量按照等距方式分成SplitNum段(比如100段),此为初始分箱; (2)计算每段的总样本数、好样本数、坏样本数、样本占比等统计值; (3)计算相邻两段的卡方值,合并卡方值最小的相邻两段; (4)重复步骤(2)和(3),直至分段个数=BinPcntMin,若某段的样本占比=BinPcntMin。 R代码 1、数据列等距分割函数: splitCol |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |